查看原文
其他

对话达观数据:如何做好一个能落地应用的垂直大模型?

卷毛 头号AI玩家 2023-09-02


作者 | 卷毛
编辑 | 张洁

2023年上半年,国内至少出现了80多个大模型产品,科技企业纷纷投入“百模大战”的热潮中。

除了少数大厂有能力研发通用大模型,更广阔的创业空间其实是在垂直大模型

达观数据CEO陈运文此前接受九派财经采访时表示,通用大模型回复的内容看上去好像滴水不漏,但是它的价值并没那么高。未来大模型真正的机会在于更加垂直的行业大模型。

达观数据在长文本处理领域深耕多年,今年7月发布了国产“曹植”大模型,具备长文本、多语言和垂直化三大特点。

据介绍,“曹植”大模型擅长完成长文档的写作、审核、润色、翻译等任务,并能针对不同行业开发特定应用和训练专属数据库,支持本地服务器私有化部署。这是国内大语言模型中首批可落地的产业应用级模型,未来将可持续赋能金融、政务、制造等多个垂直领域和通用场景人工智能的落地和发展。

“曹植”大模型的专业性报告写作能力

“头号AI玩家”最近拜访了达观数据位于上海的公司总部,达观数据联合创始人张健向我们介绍了“曹植”大模型的背后故事,并分享了如何做一个能落地应用的垂直大模型的经验。



不做大模型,就会落伍


头号AI玩家:在GPT这类大模型出现之前,达观数据主要在做什么业务?使用了哪些技术?

张健:我们的产品线比较丰富,做过很多行业的办公场景的项目落地。只讲文本这块的话,GPT之前其实我们有个主线叫语言模型,GPT是其中一个分支。编码器、解码器、GPT是三大分支,基本上是一直并存的。

GPT前期在某些层面效果并不突出,比如我们做得比较多的文字理解任务,相对来说更客观,学术界和工业界的模型的出发点都是更偏向这个路线的。生成式或偏向写作的GPT做得很早,但并不突出,所以大家一直比较忽视它的潜力,直到OpenAI出来之后,大家都很惊讶,突然效果这么好。

去年11月之前,大部分人都是基于原有的技术路线整合一些模型,应用在不同场景中。我们也是如此,而且自己研发了一些更有特色的算法,基本上涵盖了所有的自然语言理解任务,从分词、实体识别、句法词法分析,到阅读理解、文本审核等等,都可以应用到行业服务中。比如企业内部文件的结构化处理,可以快速提取关键词填写好一份合同。

合同在线起草

头号AI玩家:为什么决定要做垂直大模型?

张健:我们从去年11月就开始跟踪这个大模型技术,很早采购了服务器,为大模型训练做了硬件准备。公司也确定要往大模型的方向走,有更多的人员、资源倾斜,今年团队增加了100多人,目前还在持续扩充中。

大模型肯定是很重要的一个技术发展方向,我们技术核心是做文本的,如果不做这块,就会落伍。当然我们也去验证了做行业垂直大模型的可行性。

首先行业可能不需要一个完全通用的能力,专业性需求更强,很多客户说大模型对于门外汉来说效果挺好的,但对于专业人员来说远远不够。所以我们要针对行业去提升大模型能力。

在技术上,我们通过测试验证发现,行业应用落地不一定需要千亿级、万亿级的大模型去支撑,百亿级模型在某些条件下,相比传统方法,能够更快速地响应产品需求,准确率能达到基准线。

有论文佐证说参数规模的上涨,可能超过百亿级别后,增长更多的是世界知识,百亿级别在文字理解生成的处理任务上,已经能达到不错的效果了,再增长参数可能收益有限。

另外考虑到实际的资源消耗,百亿级参数在成本上也能取得较好的平衡。


基于这几点,我们把大模型能力和一些技术解决方案结合起来,进而融入到我们产品里。大模型其实可以理解为一个连接器,能把文本和更具体的工作做交互,包括信息检索、问答、写作、流程管理,之前是相对固化的产品交互,现在可以通过模型的生成能力做更好的衔接来解决实际问题。

头号AI玩家:企业需要大模型来做什么,可以举例说明吗?

张健:我们接触的主要是大规模的企业,包括国央企、金融机构、制造业。他们对信息化创新的需求比较旺盛GPT可以为内部实现信息化升级提供机会

比如制造业企业内部有非常多的文本知识,使用手册、操作手册、产品说明书、运维手册等,以往都需要师傅传授给徒弟,受制于个人经验,企业非常渴望把知识沉淀下来,能够更高效地被利用。

对此我们向企业提供知识库的解决方案。以往我们会通过很多文本处理手段,对纸质的扫描件和电子版的信息进行数字化,再做结构化、精细化的存储处理。现在大模型出现后,至少在信息获取和交互的用户体验上有所变革,可以通过问询的方式更加准确地定位到所需信息,并保证具有一定可信度和有效性。


让大模型的生成结果更可控


头号AI玩家:曹植大模型的命名有什么含义?主要面向哪些垂直行业?

张健:名字取自曹植的七步成诗,寓意我们大模型在长文本写作方面写得很快。曹植本身才高八斗,我们希望给外界传递我们的大模型非常聪明,写得又快又好的印象。而且我们一直强调做国产大模型,曹植这个名字一看就是来自中国的。
曹植大模型的特点之一是垂直化,我们主要面向金融、政务、制造行业的客户,为他们提供私有化部署的产品,比如金融研报的自动写作产品可以搭载在客户系统内部使用。

我们创业近八年来,客户群体更多集中在这三个行业,所以我们并不是临时起意去做一个大模型,而是在有一定的客户和应用场景的基础上,利用前沿技术来更好地服务客户。


头号AI玩家:大模型的训练数据来源于哪里?

张健:模型训练主要分为两部分,预训练和模型微调。预训练需要大量的数据,且对数据质量有要求,所以我们之前做了很多数据清洗、去重等工作,也对数据进行了一些策略性的优化来加速迭代。

模型微调,也称作有监督训练,它是面向具体任务的,需要标注数据,有问题和对应的答案类似于这样形态的。


我们的数据来源一方面是公开的通用数据和专业领域数据。比如公开的高质量的数据集,专业论文、行业性的公开年报、政策法规、新闻资讯,这么多年我们采集了至少上亿的数据量。

另一方面,我们在项目层面也累积了相关的标注数据,内部有支持标注团队,这些沉淀下来的数据可以回归到我们的模型里进行微调训练,进一步提升能力。

头号AI玩家:怎么保证生成的文本质量符合要求?

张健:专业写作有很多复杂的结构的约束,比如写投标书,哪些部分讲哪些内容是有很强的要求的,那我们的写作产品会针对内部要求去设定不同的场景,每个场景有对应的范文或模板,框定了大致的结构。

如果说是纯文本的写作,一般需要有外围信息支撑,那我们会对接内部的业务系统。比如金融类的财报,我们会从内部系统把财务报表以表格或图片形式对接过来,生成初步的分析结论。

有了机器初稿,下一步就可以进入人机交互的编辑流程。我们会根据写作中的需求快速优化内容,提升整体的写作效率,并且嵌入了审核类的校对、合规信息检查工具,最终形成一个完整的稿件。

头号AI玩家:把大模型接入产品的过程中遇到了哪些难题?比如怎么处理大模型的“幻觉”问题?

张健:如果说只用大模型,那么在很多情况下是不能满足业务场景需求的。大模型也有不少问题,首先本身不是那么可控的,大家都知道有“幻觉”这种情况存在。大模型是通过成语接龙来训练的语言模型,不能保证生成的内容完全准确,这是它自身无法克服的一个问题。

但是在业务场景中肯定需要有一个相对可靠的结论,具备一定的可解释性,有的企业会要求可以干预结果的生成,那我们的解决办法就是把大模型能力和以往的算法体系相结合去弥补真实性、时效性的问题,比如之前提到的知识图谱、知识库的相关技术。

我们需要根据场景让大模型去学习结构化的历史文档,经过微调后对场景的理解和生成质量有所提高。

另外在交互体验上,怎么写好提示词对用户来说是比较麻烦的,所以我们在产品层面做了优化,把扩写、润色、摘要等功能的提示词进行封装,不需要额外输入了,让交互更简单流畅。


能落地的应用才能发挥大模型的价值


头号AI玩家:基于曹植大模型的产品主要服务于B端客户,不会向C端用户开放吗?

张健:C端我们有“达观助手”,一款免费的AI智能写作插件工具,提供AI扩写、AI润色、标题助手、素材搜索等功能,目前已支持Windows系统的WPS、Office软件使用。这个工具主要是给用户体验的,我们希望有更多人了解达观数据,其他C端产品目前没有规划。


头号AI玩家:为B端客户提供大模型服务的公司很多,达观数据的优势是什么?

张健:我们应该是同类公司里非常看重落地应用的,刚才说到大模型本身有一些问题,在应用层面需要很多其他技术来综合使用,才能真正在行业场景中起到效率提升的作用。我们之前的产品能力和业务有很多交集或触点,可以很快地和大模型融合在一起。

同时,我们服务的客户案例非常多,在文本处理方面处于市场领先地位。我们对这些场景更了解,有相对更成熟的产品和智能应用。以及刚才提到的大量数据能支持模型训练做出更快的调整,这是我们多方面的技术优势。

头号AI玩家:关于AI产品的合规问题和数据安全,达观数据有哪些应对措施?

张健:我们是支持私有化部署的,很多大型企业比如银行、国企央企对于数据的隐私安全要求非常高,都不允许接外网,我们可以配合他们建立数据安全和审查的技术机制,保障数据不出外网、符合规范。而现在有的厂商数据全上公网,这就很难规避数据泄露的问题。

头号AI玩家:今年AI赛道非常火热,您对此的感受是什么?

张健:今年没想到会出现这样的技术变化,但其实是一个好消息,我们产品在推进的大方向没变,大模型给我们提供了更多的创新机会,可以升级自己的产品能力、技术能力。

接下来我们会继续深耕行业,大模型应用才刚开始,大部分落地还需要很多场景、产品、技术层面的稳定推进。我们也期望能在过程中发展出一些更新形态的或者变革交互体验的产品。

头号AI玩家:您如何看待国内外AI大模型创业的机会和挑战?

张健:大模型创业可以分为上中下游。上游是专注做大模型的公司,通过大模型提供一些服务。中游是基于大模型的能力,搭建AI应用的公司。还有一些下游公司是给前两类公司提供硬件等配套服务的。这几类应该都有不同的机会。

现在大模型创业还处于比较早期的阶段,变化还是挺快的,我相信下半年可能会有更多围绕这个范畴而衍生出的不同形态的内容,大模型技术还有很多空间可以做价值拓展。如何把大模型能力真正用在具体场景中,这是我们目前阶段最关注和最有压力的事情。

头号AI玩家:做垂直大模型的公司,其竞争壁垒可能在哪方面?

张健:首先,我认为技术的自主权比较重要。有自主可控的技术,无论是对客户服务还是对自身长期发展来说,都是很基础的要求。

其次,只要是做企业服务的,就需要对这个行业,对客户的场景需求有深入的理解,这方面的积累是非常重要的。

最后,整个公司的管理方式或组织架构,能否高效运转,能否留住人才,这也是影响一个企业持续进步的关键所在。

头号AI玩家:在AI办公工具不断进步的当下,人类员工的核心竞争力是什么?

张健:我认为过去互联网的出现让知识的获取变得非常容易了,人就需要去学习怎么更好地运用知识来辅助自己决策,促进更多能力的进步。

现在也是类似的转变阶段,怎么用好AI这个工具,去帮助完成更多工作和生活上的需求。我觉得AI还不能完全替代人类,很多业务场景仍然需要通过人机交互的方式完成产出,只是人可以从一些重复性的、机械性的工作中解放出来,投入更多创造性的工作。



「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
也欢迎围观小红书@头号AI玩家,我们在这里日常练习AI绘画,目标每日一更。
欢迎分享、点赞、在看
 一起研究AI

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存